大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘 实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。 模型 推理 范式 exgrpo exgrpo框架 2025-10-23 16:44 3